115 research outputs found

    Un modèle de mélange pour la classification croisée d'un tableau de données continue

    Get PDF
    National audienceContrairement aux méthodes de classification automatique habituelles, les méthodes de classification croisée traitent l'ensemble des lignes et l'ensemble des colonnes d'un tableau de données simultanément en cherchant à obtenir des blocs homogènes. Dans cet article, nous abordons la classification croisée lorsque le tableau de données porte sur un ensemble d'individus décrits par des variables quantitatives et, pour tenir compte de cet objectif, nous proposons un modèle de mélange adapté à la classification croisée conduisant à des critères originaux permettant de prendre en compte des situations plus complexes que les critères habituellement utilisés dans ce contexte. Les paramètres sont alors estimés par un algorithme EM généralisé (GEM) maximisant la vraisemblance des données observées. Nous proposons en outre une nouvelle expression du critère bayésien de l'information, appelée BIC_B, adaptée à notre situation pour évaluer le nombre de blocs. Des expériences numériques portant sur des données synthétiques permettent d'évaluer les performances de GEM et de BIC_B et de montrer l'intérêt de cette approche

    Classification binaire et modèle

    Get PDF
    Les liens existant entre les méthodes de classification automatique et les modèles de statistique inférentielle ont surtout été étudiés lorsque les données sont quantitatives. Le critère d'inertie interclasse est alors associé à un mélange gaussien (Scott et Symons 1971, Schroeder 1976, Celeux 1988). Nous nous proposons ici de le faire lorsque les données sont binaires. Nous montrons comment l'identification d'un mélange de distributions de Bernoulli avec le même paramètre pour toutes les classes et toutes les variables correspond à un critère de classification binaire utilisant la distance L1 et des noyaux binaires. Nous avons généralisé ce modèle en prenant des paramètres qui dépendent des variables mais qui sont toujours les mêmes pour toutes les classes. Enfin, nous terminons par le cas le plus général : cette fois, les paramètres peuvent varier suivant les classes et les variables. On retrouve le modèle des classes latentes traité par Celeux

    Modèle de classification et distance dans le cas continue

    Get PDF
    Les méthodes de classification se ramènent souvent à l'optimisation d'un critère numérique défini à partir d'une distance. Dans certain cas, il est possible de montrer que cela revient à estimer les paramètres d'un modèle probabiliste par une approche classification. Ainsi, il est bien connu que le critère d'inertie, très souvent utilisé en classification, correspond à l'hypothèse d'une population issue d'un mélange de lois gaussiennes. Dans ce travail, nous étudions les liens qui existent entre ces deux approches lorsque les variables sont quantitatives. Pour ceci, nous définissons la notion de critère métrique et de critère probabiliste, nous montrons ensuite qu'un critère probabiliste peut toujours être considéré comme un critère métrique et établissons enfin les conditions pour que la réciproque soit vraie. Ces résultats sont alors appliqués à deux familles de critères métriques : les premiers sont définis à partir des distances quadratiques, les seconds, à partir de la distance L1. Cette approche permet de préciser en particulier les différences entre la méthode des distances adaptatives et la méthode de reconnaissance de mélange dans le cas gaussien et de montrer que les critères utilisant la distance en valeur absolue correspondent à un mélange de lois exponentielles bilatérales

    Generalized topographic block model

    No full text
    Co-clustering leads to parsimony in data visualisation with a number of parameters dramatically reduced in comparison to the dimensions of the data sample. Herein, we propose a new generalized approach for nonlinear mapping by a re-parameterization of the latent block mixture model. The densities modeling the blocks are in an exponential family such that the Gaussian, Bernoulli and Poisson laws are particular cases. The inference of the parameters is derived from the block expectation–maximization algorithm with a Newton–Raphson procedure at the maximization step. Empirical experiments with textual data validate the interest of our generalized model
    • …
    corecore